我们介绍了表演性强化学习的框架,学习者选择的政策会影响环境的基本奖励和过渡动态。遵循有关表演预测的最新文献〜\ cite {perdomo等。 Al。,2020},我们介绍了性能稳定政策的概念。然后,我们考虑了强化学习问题的正则版本,并表明,在合理的假设对过渡动态的合理假设下,反复优化此目标将其收敛到性能稳定的策略。我们的证明利用了强化学习问题的双重观点,并且可能在分析其他算法与决策依赖性环境的融合方面具有独立的兴趣。然后,我们将结果扩展到学习者仅执行梯度上升步骤而不是完全优化目标的设置,以及学习者可以从变化的环境中访问有限数量的轨迹的设置。对于这两种设置,我们都利用表演性增强学习的双重表述,并建立与稳定解决方案的融合。最后,通过对网格世界环境的广泛实验,我们证明了收敛对各种参数的依赖性,例如正则化,平滑度和样品数量。
translated by 谷歌翻译
实际因果关系和紧密相关的责任归因概念对于负责任的决策至关重要。实际因果关系侧重于特定结果,并旨在确定对实现兴趣结果至关重要的决策(行动)。责任归因是互补的,旨在确定决策者(代理人)对此结果负责的程度。在本文中,我们研究了在不确定性下用于多代理顺序决策的广泛使用框架下的这些概念:分散的部分可观察到的马尔可夫决策过程(DEC-POMDPS)。在RL中显示了POMDP和结构因果模型(SCM)之间的对应关系之后,我们首先在DECPOMDPS和SCMS之间建立了联系。此连接使我们能够利用一种语言来描述先前工作中的实际因果关系,并研究DECOMDPS中实际因果关系的现有定义。鉴于某些众所周知的定义可能导致违反直觉的实际原因,我们引入了一个新颖的定义,该定义更明确地说明了代理人行为之间的因果关系。然后,我们根据实际因果关系转向责任归因,我们认为,在将责任归因于代理商时,重要的是要考虑代理人参与的实际原因数量以及操纵自己的责任程度的能力。在这些论点的激励下,我们介绍了一种责任归因方法,该方法扩展了先前的工作,同时考虑到上述考虑因素。最后,通过基于仿真的实验,我们比较了实际因果关系和责任归因方法的不同定义。经验结果证明了实际因果关系的定义与其对归因责任的影响之间的定性差异。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译
虽然在线社交媒体提供了一种忽略或窒息的声音的方式,但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区,但它可以溢出到主流渠道中。在本文中,我们衡量加入边缘仇恨社区的影响,以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果:一个志趣相投的用户,表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列(ITS)分析作为因果推理方法,我们衡量了溢出效应,其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理,可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区(子红):种族主义,厌女症和脂肪欺骗。在所有三种情况下,我们发现在原始社区之外的仇恨言论都在增加,这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外,在最初加入社区后的几个月后,发现用户可以在几个月内接受这种新的仇恨演讲。我们表明,有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据,以及调节它们以减少仇恨言论的潜在好处。
translated by 谷歌翻译
预训练的语言模型(PLM)通常会利用单语和多语言数据集的优势,该数据集可以在线免费获得,以在部署到特定任务中之前获取一般或混合域知识。最近提出了超大型PLM(XLPLM),以声称对较小尺寸的PLM(例如机器翻译(MT)任务)声称最高性能。这些XLPLM包括Meta-AI的WMT21密度24宽-EN-X和NLLB。 \ textIt {在这项工作中,我们检查XLPLM是否绝对优于较小尺寸的PLM,在针对特定域的MTS中进行微调。}我们使用了不同大小的两个不同的内域数据:商业自动化内部数据和\ textbf {临床}在WMT2022上共享了Clinspen2022挑战的任务数据。我们选择受欢迎的玛丽安·赫尔辛基(Marian Helsinki)作为较小尺寸的PLM和来自Meta-AI的两个大型大型转换器作为XLPLM。我们的实验研究表明,1)在较小尺寸的内域商业汽车数据上,XLPLM WMT21密度24宽24宽-EN-X确实显示出使用S \ TextSc {acre} BLEU和HLEU指标的评估得分要好得多。玛丽安(Marian),即使其得分提高率低于微调后的玛丽安(Marian); 2)在相对较大尺寸的精心准备的临床数据微调上,XLPLM NLLB \ textbf {倾向于失去}其优于较小尺寸的Marian在两个子任务(临床术语和本体概念)上使用Clinspen提供的指标Meteor,Meteor,Marian的优势。 Comet和Rouge-L,并且在所有指标上完全输给了Marian,包括S \ textsc {acre} bleu and Bleu; 3)\ textbf {指标并不总是同意}在相同的任务上使用相同的模型输出相互同意。
translated by 谷歌翻译
社会人口统计学因素(例如性别或年龄)塑造了我们的语言。先前的工作表明,合并特定的社会人口统计学因素可以一致地改善传统NLP模型中各种NLP任务的性能。我们调查了这些先前的发现是否仍然存在于最先进的经过预审预测的变压器。我们使用三种常见的专业方法证明有效地将外部知识纳入预验证的变压器(例如,特定于领域的特定地理知识)。我们使用连续的语言建模和动态多任务学习来适应语言表示,以适应性别和年龄的社会人口统计学维度,以适应,我们将语言建模与社会人口统计学类的预测相结合。使用多语言模型时,我们的结果显示了四种语言(英语,德语,法语和丹麦语)的大量表现。这些发现符合先前工作的结果,并有望成功进行社会人口统计学专业化。但是,控制诸如领域和语言之类的混杂因素表明,尽管社会人口统计学适应确实改善了下游的表现,但收益并不总是源于社会人口统计学知识。我们的结果表明,社会人口统计学专业化虽然非常重要,但在NLP中仍然是一个尚未解决的问题。
translated by 谷歌翻译
虽然审慎的语言模型(PLM)主要用作通用文本编码器,可以对各种下游任务进行微调,但最近的工作表明它们也可以重新连接以产生高质量的单词表示(即静态单词)嵌入)并在类型级词汇任务中产生良好的性能。虽然现有的工作主要集中在单语和双语环境中PLM的词汇专业化,但在这项工作中,我们将大规模多语言变压器(例如MMTS,例如Mbert或XLM-R)公开,以此为大规模的多语言词法知识,并利用Babelnet作为易于获得的丰富来源。多语言和跨语性类型级词汇知识。具体来说,我们利用Babelnet的多语言合成器来创建$ 50 $语言的同义词对,然后对MMTS(Mbert和XLM-R)进行对比目标指导的词汇专业化程序。我们表明,如此庞大的多语言词汇专业化为两项标准的跨语性词汇任务,双语词典感应和跨语性单词相似性以及跨语性句子检索带来了巨大的收益。至关重要的是,我们观察到在专业化中看不见的语言的收益,表明多语言词汇专业化使得概括无词法约束。在一系列随后的受控实验中,我们证明了MMT对专业化语言中单词表示的预处理质量对性能的影响要比一组约束集的语言多样性更大。令人鼓舞的是,这表明涉及低资源语言的词汇任务从资源丰富的语言的词汇知识中受益最大,通常更多。
translated by 谷歌翻译
在本文中,我们根据磁场强度扩展了以前的无人机定位工作。该方法基于两个非常长,薄且平行的传输线附近的磁通量分布。无人机配备了4个磁力计,可定位,因此获得的测量值为优化问题提供了独特的解决方案,用于找到无人机相对于导体的相对位置和方向。在实验室设置上进行的几组实验,证实了该方法对两种溶液的有效性 - 分析和数值优化。与高精度运动捕获系统相比,获得的结果在标准RTK定位范围内。
translated by 谷歌翻译
最先进的神经(RE)排名者是众所周知的渴望数据,鉴于缺乏英语以外的其他语言培训数据 - 使它们很少用于多语言和跨语性检索设置。因此,当前的方法通常是通过多语言编码器培训的英语数据和跨语言设置的通常转移排名者:它们通过对英语相关性判断的所有预审预周化的多语言变压器(例如MMT,例如多语言BERT)的所有参数微调所有参数。用目标语言部署它们。在这项工作中,我们表明了两种参数效率的跨语性转移方法,即稀疏的微调蒙版(SFTM)和适配器,允许更轻巧,更有效的零拍传输到多语言和跨语言检索任务。我们首先通过蒙版语言建模来训练语言适配器(或SFTM),然后在最上方训练检索(即重新固定)适配器(SFTM),同时将所有其他参数保持固定。在推断时,这种模块化设计使我们能够通过应用(或SFTM)与源语言数据一起训练的(RE)排名适配器(或SFTM)以及目标语言的语言适配器(或SFTM)。我们对CLEF-2003和HC4基准进行了大规模的评估,此外,作为另一个贡献,我们还用三种新语言进行查询:吉尔吉斯,Uyghur和Turkish。所提出的参数效率方法的表现优于标准零射击传输,并具有完整的MMT微调,同时是模块化和减少训练时间。对于低资源语言,收益特别明显,我们的方法也大大优于基于竞争的机器翻译的排名。
translated by 谷歌翻译
Geographic features are commonly used to improve the performance of pretrained language models (PLMs) on NLP tasks where they are intuitively beneficial (e.g., geolocation prediction, dialect feature prediction). Existing methods, however, leverage geographic information in task-specific fine-tuning and fail to integrate it into the geo-linguistic knowledge encoded by PLMs, which would make it transferable across different tasks. In this paper, we introduce an approach to task-agnostic geoadaptation of PLMs that forces them to learn associations between linguistic phenomena and geographic locations. Geoadaptation is an intermediate training step that couples language modeling and geolocation prediction in a multi-task learning setup. In our main set of experiments, we geoadapt BERTi\'{c}, a PLM for Bosnian-Croatian-Montenegrin-Serbian (BCMS), using a corpus of geotagged BCMS tweets. Evaluation on three tasks, namely fine-tuned as well as zero-shot geolocation prediction and zero-shot prediction of dialect features, shows that geoadaptation is very effective: e.g., we obtain state-of-the-art performance in supervised geolocation prediction and report massive gains over geographically uninformed PLMs on zero-shot geolocation prediction. Moreover, in follow-up experiments we successfully geoadapt two other PLMs, specifically ScandiBERT on Norwegian, Swedish, and Danish tweets and GermanBERT on Jodel posts in German from Austria, Germany, and Switzerland, proving that the benefits of geoadaptation are not limited to a particular language area and PLM.
translated by 谷歌翻译